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摘 要 : 准确 预测 蛋白 质变 性 温度 在 蛋白 质 工 程 和 药物 研制 等 领域 具有 重要 意义 。 将 全 局 特征 和 序列 特征 作为 初始 特 
征 向 量 ， 利 用 提出 的 基于 权 值 的 降 维 算 法 对 初始 特征 向 量 进行 降 维 ， 降 维 后 的 特征 输入 多 层 感知 机 模型 预测 蛋白 质变 
性 温度 。 在 育 测 数据 集 上 ， 该 方法 预测 结果 与 实验 测定 结果 的 PCC 值 由 降 维 前 的 0.77 增加 到 0.8，RMSE 值 由 降 维 前 
的 0.17 降低 到 了 0.16， 有 蛋白 质变 性 温度 预测 值 的 分 类 准确 率 与 现 有 方法 比较 有 明显 提升 。 
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Using multi-layer perceptron to predict protein melting temperature 
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Abstract: It is significant to predict accurate protein melting temperature in protein engineering and drug design. In this paper, 
we proposed a novel weight-based dimensionality reduction algorithm, and applied it to obtain the input features of MLP model 


by using combination with global and sequential features as preliminary features. On blind test sets, the PCC value of predicted 


and experimental melting temperatures increased from 0.77 to 0.8, and RMSE value decreased from 0.17 to 0.16. The 
classification accuracy of predicted melting temperatures by our algorithm was significantly improved over the up-to-date 


service. 
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0 ”引言 二 肽 含量 与 蛋白 质变 性 温度 之 间 的 关联 性 来 估算 变性 温度 的 范 
所 ,然而 该 方法 不 能 预测 蛋白 质变 性 温度 的 具体 数值 。 Pucci 等 

蛋白 质 稳 定性 是 指 蛋 白质 在 高 温 坏 境 下 抵御 热 变性 的 一 种 。 人 中 基于 温度 的 统计 势能 预测 同 源 蛋 白质 的 稳定 性 曲线 ， 该 过 
能 力 ， 同 时 也 是 蛋白 质保 持 自身 最 佳 活性 的 固有 特性 。 蛋 白质 星 需要 使 用 大 量 蛋 白质 的 属性 诸如 蛋白 质 灵活 度 和 内 、 亲 水 性 铝 、 
变性 温度 是 一 个 蛋白 质 功 能 是 否 丧 失 的 一 个 重要 衡量 指标 ， 是 “” 氧 键 中 等 需要 实验 测 得 ， 预 测 过 程 比较 复杂 。Gorania 等 人 外 基 
蛋白 质 动力 学 稳定 性 的 度量 方式 之 一 ， 因 此 预测 蛋白 质变 性 温 。 于 序列 信息 ， 构 建 人 工 神经 网 络 和 自 适应 模糊 网 络 推理 系统 模 


度 在 科学 研究 领域 或 药物 研制 等 应 用 领域 都 有 非常 重要 的 意义 。 型 ， 通 过 分 析 蛋 白质 氨基 酸 序列 和 蛋白 质变 性 温度 之 间 的 复杂 
目前 ， 蛋 白质 变性 温度 主要 由 差 式 扫描 热量 法 (differential 。” 非 线性 关系 来 预测 蛋白 质变 性 温度 , 然而 该 方法 的 数据 量 过 小 ， 
白 


scanning calorimetry)、 圆 二 色谱 法 (circular dichroism)、 侍 里 叶 不 能 完全 捕捉 到 蛋白 质 的 特性 与 变性 温度 之 间 的 关联 。 
变换 红外 光谱 法 (Fourier transform infrared spectroscopy) 等 实验 近年 来 深度 学 习 吕 在 语音 识别 外、 机 器 翻译 饵 等 领域 的 
方法 测定 ， 但 是 实验 方法 存在 费用 昂贵 、 流 程 复 杂 、 周 期 长 等 ” 优异 表现 ， 受 到 人 们 的 越 来 越 多 的 关注 与 使 用 。 本 文 基于 多 层 
; 感知 机 模型 (multi-layer perceptron, MLP) 对 蛋白 质变 性 温度 进 
近年 来 , 利用 数理 统计 品 、 机 器 学 习 急 等 方法 预测 蛋白 质变 ， 行 预 测 ， 将 全 局 特征 和 序列 特征 结合 作为 初始 特征 向 量 ， 利 用 


往 温 度 获 得 了 广泛 应 用 。Ku 等 人 外 基于 统计 估算 的 方法 , 建立 。 基于 权 值 的 方法 对 特征 进行 降 维 。 结 果 显 示 ， 本 文 方法 在 测试 
数据 集 上 得 到 了 均 方 根 误差 0.16, 皮尔 森 相 关系 数 0.8, 对 比 实 
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验 结果 优 于 文献 [3]。 
1 ”材料 与 方法 


1.1 数据 集 


本 文 的 数据 身 
息 及 其 相应 的 全 局 变 改 
E coli 729 条 、 酿 } 


thermophilus 1073 条 和 人 类 Human cervical cancer cells 1009 条 。 
巧 , 分 别 是 E_coli:60 条 ， 
S. cerevisiae:60 条 , Thermus thermophilus:90 条 , Human cervical 
cancer cells:90 条 ， 然 后 将 其 余 3 220 条 和 蛋 
练 集 与 测试 集 具 体 条 数 如 表 1 所 示 。 
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机 器 学 习 领 域 中 数据 降 维 是 指 采 用 某 种 映射 方法 ， 将 原 高 
佳 空间 中 的 数据 点 映射 到 低 维 度 的 空 
analysis(PCA) 是 最 常用 的 线性 降 维 方法 ， 它 的 目标 是 通过 某 种 


间 中 。Principal component 


将 高 维 的 数据 映射 到 低 维 的 空间 中 表示 ， 并 期 望 在 


站 来 源 于 文献 [10]， 共有 3520 条 和 蛋白 


和 维度 上 数据 的 方差 最 大 ， 以 此 使 用 较 少 的 数据 维度 ， 
和 


下 开 


E 温 度 ， 分 别 来 源 于 四 个 组 织 ， 大 肠 杆 


主 较 多 的 原 数据 点 的 特性 ,虽然 PCA 降 维 能 够 和 


酵母 S. cerevisiae 709 条 , 嗜 热 菌 


但 是 它 的 适用 场景 局 限 在 线性 降 维 中 ， 而 本 文采 用 


首先 按 其 分 布 比 例 抽 取 300 条 作为 测试 外 


质 用 作 训 练 集 。 训 


Ly 


感知 机 预测 蛋白 质变 性 温度 ,是 一 种 非 线性 回归 模型， 
号 的 数据 降 维 , 它们 是 一 种 特征 选择 , 而 非特 征 提 取 ， 

居 源 头 开始 分 析 以 减少 特征 ， 从 而 为 生物 实验 提取 特征 
I 金钱 ， 且 本 文中 提出 的 基于 权 值 的 降 维 方法 对 于 多 
几 有 很 好 的 适用 性 。 


本 文通 过 构建 一 个 MLP 模型 进行 拟 合 ， 然 后 输出 每 个 输 


节点 与 后 面 隐 层 之 间 的 权 值 关系 ， 我 们 认为 权 值 不 论 是 正 ， 


大 肠 杆 
酿酒 
人 类 


总 计 


NK 


CS 


是 负 ， 只 要 绝对 值 比较 大 ， 就 认为 对 该 神经 网 络 起 到 了 积极 的 


值 绝 对 值 大 是 强 抑 舍 
值 集合 中 每 个 数 绝对 值 化 后 进行 阔 值 (0.0285) 判 断 , 计数 超过 阔 
值 的 总 数 过 半 即 大 于 10( 第 一 层 隐 层 

为 这 个 节点 输入 的 特征 对 变性 温度 有 重要 作用 予以 保留 ， 否 则 


1.2 特征 提取 与 评估 方法 


1.2.1 全 局 特征 


A 


， 因 此 本 文 对 每 个 节点 相关 的 权 


节点 数 为 20) ， 我 们 就 认 


J 剔除 。 最 后 本 文 将 算法 1 应 用 于 上 述 初始 特征 向 量 ， 得 到 


541 维特 征 向 量 。 然 后 重新 建立 一 个 MLP 回归 模型 ， 


每 条 蛋白 质 抽取 全 局 特 行 
物化 特性 1 437 维 ， 基 


上 述 方法 筛选 之 后 的 特征 ， 重 新 进行 匠 


es 


日 训练 。 算 法 


于 权 值 降 维 的 算法 。 


计算 得 到 ; 电子 特性 140 维 
Protein recon[2 得 到 ; 


序列 使 用 ProtDCalll 


TAR 
HR 
NS 


算法 1 基于 权 值 进行 特征 


个 氨基 酸 的 数量 与 所 


1.2.2 序列 特征 


| 等 48 维 ， 使 用 ExPASY09 得 到 。 


本 文 所 使 用 的 序 允 


F 包 含 两 个 部 分 : 氨基酸 分 类 和 二 肌 


键 信息 。 根 据 物 化 特性 闪 
酸 分 为 6 > 玻 水 性 (V, 下 Ls F, ML W, Y, C)、 带 负 电荷 (D， E)、 
带 正 电 荷 (R, K, 本 、 构 象 特殊 (G,P)、 极 怕 


‘1 


EN, Q, S)、 其 他 (A,T)。 


将 每 条 蛋白 质 中 上 述 6 类 和 氨基 酸 的 数量 
特征 。 本 文 将 20 种 毛 
20 种 氨基 酸 和 XX 对 有 蛋 


构建 882 维特 征 。 


1.2.3 初始 特征 向 量 


占 比 例 作 为 12 维 


白质 的 二 肽 键 数量 和 所 占 比 例 进行 统计 ， 


本 文 方法 中 采用 
接 , 得 到 共 2538 维 初始 特 和 


采取 了 归 一 化 处 理 。 


1.2.4 基于 权 值 的 


机 器 学 习 中 维度 过 高 会 导致 较 高 的 时 间 复 杂 度 和 空间 复杂 


旦 ， 有 时 候 过 高 


大 量 时 间 和 金钱 。 


来 噪音 或 者 造成 特征 元 余 ， 


而 降低 了 准确 率 。 另 儿 
的 人 力 ， 财 力 ， 因 此 有 必要 进 
有 更 好 的 泛 化 性 能 ， 进 而 有 币 


闻 


行 一 定 程度 的 降 维 
I 于 提高 精度 和 减少 特征 


记 


Build MLP model 


Input 2538 features to fit protein melting 


temperature 
Outputs the weight matrix 
For i=1 to 3220Cumbers of protein): 
count=0 
For j=1 to 2538(numbers of protein features): 
If abs(weight matrix)>0.0285: 
count+=1 
If count>10: 
Save the feature index 


From step 3 get features index matrix. According 


it, select new features for every protein. 
Build new MLP model. 


Input the new protein features to new MLP model 


to fit the protein melting temperature 
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性 相关 系数 。 皮 尔 森 相关 系数 是 用 来 反映 两 个 变量 线性 相关 程 
度 的 统计 量 。 其 中 V 为 样本 量 , XX 与 了 分 别 表示 样本 的 观测 值 
与 真实 值 。PCC 描述 的 是 两 组 变量 间 线 性 相关 强 弱 的 程度 。 其 
绝对 值 越 大 表明 相关 性 越 强 。 本 文中 了 与 了 分 别 表示 蛋白 质 的 
变性 温度 的 观测 值 与 预测 值 。N 表示 的 是 蛋白 质 的 条 数 。 


Zr 2 
人 Eee 7 Do 


PCC = 


1.3 ”模型 及 训练 


本 文 是 基于 sklearm 平台 搭建 对 蛋白 质变 性 温度 进行 回归 
分 析 的 MLP” "模型 ， 如 图 1 所 示 。 本 文 使 用 的 模型 共 构建 了 


3 层 隐 层 ， 隐 层 节 点 数 分 别 设置 为 (20,20,20)， 激 活 函 数 设置 为 


relu。 


| 
Rey 
MI 


感知 机 模型 图 


多 层 感知 机 采用 多 隐 层 处 理 ， 比 较 适 合 进行 非 线 性 拟 合 函 
数 , 采用 BP 反 向 传播 算法 ,通过 调节 学 习 率 ,避免 陷入 局 部 
最 优 解 ， 该 模型 使 用 梯度 下 降 算法 降低 loss (损失 函数 ) 为 优化 
标 。 其 中 损失 函数 


过 注 


co 已 = 坟 二 pPCO- 中 


优化 目标 为 确定 w( 权 值 ) 和 b( 偏 置 ) 使 得 损失 函数 C(w,b) 
最 小 ， 这 意味 着 网 络 输出 的 值 会 越 来 越 接近 真实 值 。 其 中 权 值 
和 偏 置 迭代 公式 如 下 : 


_ ChinaXiv 合 作 期 书 
录用 稿 丁 雪松 ， 等 : 基于 多 层 感知 机 的 蛋白 质变 性 温度 预测 
1.2.5 评估 方法 通过 不 断 的 迭代 搜索 到 最 合适 的 权 值 和 偏 置 使 得 loss 最 小 。 

均 方 根 误差 (root mean square error,RMSE)， 它 是 观测 值 与 本 文中 利用 和 蛋白质 的 特征 作为 输入 数据 输入 到 多 层 感知 机 
真实 值 偏差 的 平方 和 观测 次 数 p 比值 的 平方 根 。 本 Xucw， 是 的 输入 层 ， 经 过 隐 层 进行 非 线性 拟 合 ， 最 后 在 输出 层 输出 蛋白 
第 i 条 和 蛋白 质 的 模型 预测 值 。n 是 蛋白 质 的 条 数 。 质 的 变性 温度 。 由 于 本 文 提取 和 蛋白 质 特 征 数据 较 多 ， 特 征 之 间 

5 可 能 存在 关联 ， 从 而 不 利于 模型 进行 训练 以 及 影响 模型 的 预测 
RMSE= 2 Kemer 一 Xu 准确 率 。 因 此 ， 本 文 使 用 算法 1， 对 特征 向 量 进行 降 维 。 
" 2 结果 
皮尔 森 相 关系 数 (Pearson correlation coefficient,PCC)， 是 一 种 线 2 1 结果 分 析 


本 文 首先 使 用 1.2.3 中 初始 特征 向 量 输入 到 1.3 中 所 述 MLP 
质变 性 温度 预测 ， 得 到 测试 集结 


果 PCC:0.772347， 


FE 向量 进 行 


了 降 维 后 得 到 541 维特 征 ， 


归 拟 合 ， 
RMSE:0.1638。 特 征 


重新 建立 MLP 模 


可 量 降 维 前 后 效果 如 表 2 


得 到 的 测试 集结 果 PCC:0.80559， 


所 示 。 


表 2 特征 向 量 降 维 前 后 效果 对 比 

特征 向 量 维度 PCC RMSE 

2538 0.772347 0.1874 

541 0.80559 0.1638 

本 文 测试 集中 部 分 蛋白 质变 性 温度 预测 值 与 对 应 的 真实 值 
对 比如 表 3 所 示 。 
表 3 部 分 实验 结 

蛋白 质 名 称 预测 值 真实 值 
Q5SJI3 80.1207 80.1028 
P00950 $51.0955 51.0743 
Q5SJ30 82.1055 82.0235 
POCX47 54.0327 53.9060 
Q5SLQ1 84.5149 84.2003 
Q3E754 50.6029 50.2140 
O43660 59.9184 59.4236 
Q07551 53.6496 53.1438 
QSSHSO 84.1124 83.5612 
Q9UMS4 34.4323 49.3990 
P30750 $51.6206 46.4856 
QSSKM3 84.0083 75.4672 
POAGJS $53.7737 43.6101 


图 2 左 图 是 降 维 前 2538 维特 征 的 拟 合 图 ， 


维 后 541 维特 征 的 拟 合 图 ， 可 以 看 


孙 自 


于 y=x 上 。 


图 


图 2 右 图 是 降 


2 降 维 前 后 拟 合 效 果 对 比 图 


上 前 者 较 分 散 ， 后 者 较 好 的 
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横 坐 标 是 蛋白 质变 性 温度 预测 值 , 纵 坐 标 是 蛋白 质 温度 实验 值 。 中 间 
直线 函数 y=x 


2.2 对比 实验 

现 有 计算 方法 预测 Melting Temperature 的 文献 中 , 仅 有 Ku 
提供 了 webservice(http://tm.life.nthu.edu.tw/), 本 文 提 交 了 1.1 所 
述 测 试 集 到 该 网 站 上 进行 预测 ， 由 于 该 方法 只 提供 了 对 蛋白 质 
变性 温度 的 分 类 预测 ， 分 为 (>65°C),(55°C~65°C),(<55°C) 三 类 ， 
因此 本 文 基于 分 类 准确 率 与 之 比较 。 其 中 由 蛋白 质 的 变性 温度 
的 实验 值 所 属 分 类 作为 基准 类 别 , 对 分 类 结果 进行 统计 并 评估 。 
本 文 1.2.4 中 方法 与 Ku 方法 预测 蛋白 质变 性 温度 的 分 类 准确 率 
对 比如 表 4 所 示 。 


工 


表 4 分 类 准确 率 对 比 


准确 数 总 数 准确 率 
Ku 114 300 0.38 
MLP 189 300 0.63 


3 ”结束 语 


本 文 从 已 知 蛋 白质 的 变性 温度 为 目标 进行 拟 合 一 个 预测 模 
型 ， 以 此 来 预测 更 多 未 知 变性 温度 的 蛋白 质 ， 意 义 在 于 为 生物 
工程 提供 辅助 依据 ， 从 而 降低 生物 实验 的 时 间 和 经 济 成 本 。 本 
文 基于 MLP, 采 用 2 538 维特 征 向 量 作为 初始 特征 向 量 ,利用 权 


得 到 541 维特 征 ， 取 得 了 更 高 的 预测 
， 本 文 所 提出 的 预测 模型 不 仅 可 以 巴 


昌 度 数值 ， 应 用 在 分 类 预测 上 ， 也 比 己 报 
道 方法 表现 更 出 色 。 尝 试 找到 更 有 具 代表 性 的 特征 属性 是 提高 预 
测 蛋 白质 变性 温度 的 难点 ， 因 此 如 何 挖掘 到 这 些 属性 是 下 一 步 
工作 的 重点 。 
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